查看原文
其他

案例评析|机器人爬取向公众公开的数据不构成未经授权的访问

赢在IP 赢在IP
2024-08-26

#这是公众号的第403篇原创分享,欢迎关注

如您觉得有所帮助,感谢点赞、在看和转发#


导语

加州计算机欺诈和滥用法CFAA禁止在未经授权的情况下访问“受保护的计算机”。为了使用网络爬虫抓取LinkedIn数据,hiQ需要访问LinkedIn服务器,这些服务器是“受保护的计算机”。hiQ提出了一个重要的问题,即CFAA的“未经授权”概念是否不适用于以下情况,即除了特定人员或机器人被拒绝访问的情形外,通常不需要事先授权的情况合议庭的结论是,当一个人规避计算机的一般适用规则(例如用户名和密码要求)来访问计算机时,似乎违反了CFAA的规定当计算机网络通常允许公众访问其数据时,用户访问该公开可用数据可能不构成未经CFAA授权的访问。

供稿:赵云虎,杨宇宙


裁判文书请戳

编号:17-16783

基本案情:

原告(被上诉人):HIQ LABS INC.(“hiQ labs”)

被告(上诉人):LINKEDIN CORPORATION (“Linkedin”)

LinkedIn成立于2002年,是一家拥有超过5亿会员的专业社交网站。会员发布简历和职位列表,并与其他会员建立专业“联系”。LinkedIn明确声明不对用户发布到其个人资料中的信息拥有所有权:根据LinkedIn的用户协议,成员拥有他们提交或发布给LinkedIn的内容和信息,并仅授予LinkedIn非排他性许可,以“使用,复制,修改,分发,发布和处理”该信息。

LinkedIn允许其成员在各种隐私设置中进行选择。成员可以指定其个人资料的哪些部分对公众可见(即,对LinkedIn成员和非成员都可见),哪些部分仅对直接连接、成员的“网络”(由三个连接度内的LinkedIn成员组成)或所有LinkedIn成员可见。本案仅涉及向公众可见的个人资料。

LinkedIn还为所有成员(无论其个人资料隐私设置如何)提供“不广播”选项,用于他们对个人资料所做的每次更改。如果LinkedIn成员选择此选项,则当她更新个人资料信息时,不会通知她的联系人,尽管更新后的信息仍将显示在她的个人资料页面上(因此,允许在其常规隐私设置下查看其个人资料的任何人都可以看到)。超过5000万LinkedIn会员在某个时候选择使用“不广播”功能,在2016年7月至2017年7月期间更新其个人资料的所有活跃用户中,约有20%使用“不广播”设置- 无论其隐私设置如何。

LinkedIn已采取措施保护其网站上的数据免遭其认为的滥用或盗用。除了已经从LinkedIn明确获得机器人(即“网络爬虫“)访问的许可特定实体,如Google搜索引擎,LinkedIn的“robots.txt”文件(网站所有者用于与搜索引擎抓取工具和其他网络机器人进行通信的文本文件)禁止通过自动机器人访问LinkedIn服务器。LinkedIn还采用了多种技术系统来检测可疑活动并限制自动抓取。例如,LinkedIn的Quicksand系统检测到指示抓取的非人类活动;其Sentinel系统限制(减慢或限制)甚至阻止来自可疑IP地址的活动;及其Org Block系统生成一个已知用作大规模抓取程序的 “坏”IP 地址的列表。总体而言LinkedIn每天阻止约 9500 万次自动抓取数据尝试,并限制了超过 1100 万个涉嫌违反其用户协议的帐户,包括通过抓取。

HiQ是一家数据分析公司,成立于2012年。它使用自动机器人抓取LinkedIn用户已包含在公共LinkedIn配置文件中的信息,包括姓名、职务、工作经历和技能。然后,它使用该信息以及专有的预测算法来生成“人员分析”,并将其出售给商业客户。

HiQ提供了两个这样的分析。第一个是Keeper,旨在识别最有可能被招聘的员工。根据hiQ的说法,该产品使雇主能够提供职业发展机会,保留奖金或其他津贴,以留住有价值的员工。第二个是Skill Mapper技能映射器,总结了员工的技能。除其他事项外,该工具还应该帮助雇主识别其劳动力的技能差距以便他们能够在这些领域提供内部培训,促进内部流动并减少外部招聘的费用。

HiQ定期组织“Elevate”会议,在此期间,参与者讨论hiQ的商业模式,并分享人员分析领域的最佳实践。LinkedIn代表参加了从2015年10月开始的Elevate会议。至少有十名LinkedIn代表出席了会议。LinkedIn员工也在Elevate会议上发言。2016年,一名LinkedIn员工被授予Elevate“影响力奖”。因此,LinkedIn员工有机会了解hiQ的产品,包括“hiQ的产品之一使用来自各种来源(内部和外部)的数据来预测员工流失”,以及hiQ“从公开的专业档案中收集技能数据,以便为hiQ的客户提供有关其员工技能的信息。

近年来,LinkedIn探索了通过营销新产品来利用LinkedIn个人资料中包含的大量数据的方法。2017年6月,LinkedIn首席执行官杰夫·韦纳(Jeff Weiner)出现在CBS上,他解释说,LinkedIn希望“利用我们通过让5亿人加入该网站而能够收集到的所有这些非凡数据。”Weiner提到,这些可能性为雇主提供了数据驱动的见解,以了解他们需要哪些技能才能成长,以及在哪里可以找到具有这些技能的员工。从那时起,LinkedIn宣布了一款新产品Talent Insights,它分析LinkedIn数据,为公司提供此类数据驱动的信息。 

2017年5月,LinkedIn向hiQ发送了一封停止和终止信,声称hiQ违反了LinkedIn的用户协议,并要求hiQ停止访问和复制LinkedIn服务器的数据。信中指出,如果hiQ将来访问LinkedIn的数据,它将违反州和联邦法律,包括CFAA,数字千年版权法案(“DMCA”),加州刑法§ 502(c)和加州普通法。信中进一步指出,LinkedIn“实施了技术措施,通过检测、监控和阻止抓取活动的系统,防止hiQ访问,并协助其他人访问LinkedIn的网站。

HiQ的回应是要求LinkedIn承认hiQ有权访问LinkedIn的公共页面,并威胁说,如果LinkedIn拒绝,将寻求禁令。一周后,hiQ提起诉讼,寻求基于加州法律的禁令救济,并作出确认判决,即LinkedIn不能合法地援引CFAA,DMCA,加州刑法§502(c)或普通侵入法加以反对。HiQ还提出了临时限制令的请求,双方随后同意将其转换为初步禁令的动议。

地区法院批准了hiQ的动议。它命令LinkedIn撤回其停止和终止信,消除hiQ访问公共个人资料的任何现有技术障碍,并避免采取任何法律或技术措施,以阻止hiQ访问公共个人资料。LinkedIn及时提出上诉。

第九巡回上诉法院合议庭此前确认了初步禁令。最高法院批准了调卷令,撤销了该合议庭的判决,并根据Van Buren诉美国案(141 S. Ct. 1648 (2021))发回重审,以供进一步审议。在发回重审时,第九巡回上诉法院合议庭再次确认了初步禁令。

法院意见

寻求初步禁令的原告必须证明(1)他可能会根据案情胜诉,(2)在没有初步救济的情况下,他可能会遭受不可挽回的伤害,(3)权益衡平对他有利,(4)并且禁令符合公共利益。

A. 无法弥补的损害

hiQ的整个业务取决于能够访问公共LinkedIn会员资料,目前没有可行的对LinkedIn会员数据库的替代方案来为hiQ的Keeper和Skill Mapper业务获取数据。如果无法访问LinkedIn公开个人资料数据,HiQ可能会被迫违反与eBay,Capital One和GoDaddy等客户的现有合同,并放弃与潜在客户的待定交易。HiQ在一轮融资中收到了LinkedIn的停止和终止信。鉴于hiQ业务未来可行性的不确定性,该轮融资停滞不前,几名员工离开了公司。如果LinkedIn占上风,HiQ将不得不解雇大部分(如果不是全部)员工,并关闭其业务。

LinkedIn坚持认为,hiQ的商业模式并不依赖于对LinkedIn数据的访问。它坚持认为存在LinkedIn数据的替代方案,并特别指出一些用户在Facebook上发布的专业数据。但HiQ的模型依赖于从选择与世界分享信息的人那里获得公开数据。相比之下,Facebook的数据通常无法访问,因此不是等效的替代数据源。

LinkedIn还敦促,即使没有足够的替代数据库,HiQ也可以通过员工调查收集自己的数据。但hiQ是一家数据分析公司,而不是一家数据收集公司。HiQ可以从根本上改变其业务的性质,而不仅仅是它开展业务的方式,这表明hiQ当前的业务无法在无法访问LinkedIn公共个人资料数据的情况下生存。

简而言之, hiQ目前除了将LinkedIn公共个人资料数据用于其Keeper和Skill Mapper服务之外,目前没有其他可行的方式继续经营,因此HiQ已经证明在没有初步禁令的情况下可能会造成不可挽回的伤害。

B. 权益衡平

天平的一面是刚刚讨论的对hiQ的危害:如果没有禁令,它将倒闭的可能性。另一方面,LinkedIn声称,该禁令威胁到其成员的隐私,因此危及LinkedIn与其成员建立的善意。LinkedIn的主张有一定的道理;但是有理由在一定程度上对其主张打折扣。

首先,几乎没有证据表明,选择公开其个人资料LinkedIn用户实际上对他们公开发布的信息保持了隐私的期望,并且他们是否这样做是值得怀疑的。LinkedIn的隐私政策明确规定,“您放在LinkedIn个人资料上的任何信息以及您发布的任何内容都可能被其他人看到”,并指示用户不要“在您的个人资料中发布或添加您不想公开的个人数据”。

其次,没有证据表明,大多数选择“不广播”选项的人这样做是为了防止他们的雇主被提醒在预期求职时所做的个人资料更改。用户选择该选项还有其他原因 - 最值得注意的是,许多用户可能只是希望避免每次发生个人资料更改时发送其连接烦人的通知。无论如何,雇主可以随时直接查阅选择公开其个人资料的用户的个人资料,以查看最近是否进行了任何更改。打算向雇主隐瞒此类信息的雇员可以通过拒绝公开披露其个人资料并消除雇主作为联系人来做到这一点。

最后,LinkedIn自己的行为削弱了其观点,即用户对公共个人资料中的隐私有期望。LinkedIn的“招聘人员”产品使招聘人员能够“关注”潜在客户,在潜在客户对其个人资料进行更改时获得“警报”,并“将这些[警报]用作信号,以便在潜在客户不知情的情况下在正确的时刻伸出援手”。LinkedIn的“人才招聘、营销和销售解决方案”的订阅者可以从会员的公开个人资料中导出数据,例如“姓名、标题、当前公司、当前职务和位置”。

简而言之,即使一些用户决定公开他们的个人资料,但他们仍然保留一些隐私利益,LinkedIn阻止hiQ抓取这些个人资料的利益足以超过hiQ继续其业务的利益,这取决于访问,分析和传达从公共LinkedIn配置文件中获得的信息。

LinkedIn所声称的其他损害也不能打破初步救济方面的损害平衡。LinkedIn主张在阻止“搭便车者”使用其平台上发布的个人资料的利益。但是,LinkedIn对其用户提供的数据没有受保护的财产权益,因为用户保留对其个人资料的所有权。至于公开可用的个人资料,用户显然希望其他人访问它们,包括出于商业目的 - 例如,雇主试图雇用具有某些凭据的个人。当然,LinkedIn可以通过消除公共访问选项来满足其“搭便车”的担忧,尽管以牺牲许多用户的偏好为代价,并且可能以自己的底线为代价。

C. 胜诉的可能性

1. 对合同的侵权干扰

HiQ声称,LinkedIn故意干扰hiQ与第三方的合同。原告必须为说明故意干扰合同关系的诉因而必须辩护的要素是:(1)原告与第三方之间的有效合同;(2)被告知悉该合同;(3)被告为导致违反合同或者干扰合同关系而故意的行为;(4)实际违反或干扰合同关系;和(5)造成的损害。

首先,LinkedIn并不质疑hiQ关于hiQ与包括eBay、Capital One和GoDaddy在内的一些客户之间存在合同的证据。

其次,hiQ很可能能够确定LinkedIn知道hiQ的抓取活动和产品已经有一段时间。

第三,LinkedIn威胁要援引CFAA,并有选择地实施技术措施来禁止hiQ机器人,这很可能构成“旨在导致hiQ违反或破坏”与第三方合同关系的“故意行为”。

第四,hiQ与第三方之间的合同关系被打乱,“现在悬而未决”。如果无法访问LinkedIn数据,HiQ可能无法按照承诺向现有客户提供服务。

最后,hiQ受到其现有合同中断和对其待决合同的干扰的损害。如果没有销售产品的收入,hiQ很可能会倒闭。

LinkedIn并没有具体挑战hiQ辨别侵权干扰索赔的任何这些要素的能力。相反,LinkedIn坚持认为,它对任何此类索赔都有“合法的商业目的”辩护。

根据加利福尼亚州法律,合法的商业目的确实可以证明干扰合同是合理的,但不仅仅是任何此类目的就足够了。在存在合同关系的情况下,“合同稳定性”中的社会利益通常被认为比竞争自由更重要。

因此,加利福尼亚州法院采用平衡测试来确定因干扰合同而产生的利益是否超过合同稳定性中的社会利益:

首先,HiQ在履行其对eBay和Capital One等大客户的合同义务方面具有强烈的商业利益。这些公司受益于 hiQ 访问、汇总和分析来自LinkedIn配置文件的数据的能力。

其次,LinkedIn的干预手段可能不是加州法院所理解的“公认的贸易惯例”。“公认的贸易惯例”包括“广告”、“降价”和“雇用他人的员工用于雇用者的业务”等活动所有可能间接干扰竞争对手合同但不会从根本上破坏竞争对手基本商业模式的做法。LinkedIn有选择地阻止hiQ访问其网站上数据的主动技术措施与以前被认为是合同干扰的可接受理由的交易实践不同。

此外,LinkedIn的行为很可能不在“公平竞争的范围内”。HiQ提出了一个严重的问题,即LinkedIn禁止hiQ机器人的行动是否是为了推进LinkedIn自己引入竞争性专业数据分析工具的计划。有证据表明,在目前的争议发生之前,LinkedIn知道hiQ及其对外部数据的依赖。它决定发送一封停止和终止信是在LinkedIn首席执行官宣布LinkedIn计划利用其平台上的数据为雇主创建一个与hiQ的Skill Mapper 产品有一些相似之处的新产品之后的一个月内做出的。如果像LinkedIn这样的公司,其服务器拥有大量的公共数据,被允许有选择地只禁止潜在的竞争对手访问和使用这些公共数据,其结果 - 在汇总和分析公众信息方面完全排除原始创新者 - 根据加利福尼亚州法律,很可能被视为不正当竞争。

最后,LinkedIn所主张的私人商业利益——“保护其成员的数据和开发平台的投资”和“执行其用户协议对自动抓取的禁令”——相对较弱。LinkedIn仅对其平台上共享的数据拥有非排他性许可,而不是所有权权益。其核心商业模式——提供一个分享专业信息的平台——并不要求禁止hiQ使用这些信息,正如hiQ在LinkedIn发送停止和终止信之前使用LinkedIn数据一段时间所证明的那样。至于其成员对其数据的利益,成员对他们在公共档案中分享的信息的隐私期望“充其量是不确定的”。此外,有证据表明,LinkedIn自己开发了一种类似于HiQ产品的数据分析工具,这破坏了LinkedIn声称它考虑到了其成员的隐私利益。最后,LinkedIn尚未解释,既然其用户状态已被终止,它如何针对 hiQ 强制执行其用户协议。

由于所有这些原因,LinkedIn很可能无法证明故意导致违反合同的“合法的商业目的“。

2. 计算机欺诈和滥用法 (CFAA)

CFAA指出,[任]何人 . . .故意未经授权访问计算机或超过授权访问,从而获得. . .来自任何受保护计算机的信息 . . .应处以罚款或监禁。“受保护的计算机”一词是指“用于或影响州际或外国商业或通信”的任何计算机。

CFAA的关键问题是,一旦hiQ收到LinkedIn的停止和终止信,任何进一步抓取和使用LinkedIn数据的行为是否属于CFAA意义上的“未经授权”而违反了法规。

至少,hiQ对这个问题提出了一个严重的问题。

首先,“授权”是一个肯定的概念,表明访问仅限于那些特别承认或允许的人。如果默认是未经授权的自由访问,用通常的话说,人们会将选择性拒绝访问定性为禁止,而不是缺乏“授权”。

其次,即使这种解释值得商榷,但法规的立法历史证实了我们的理解。CFAA的颁布是为了防止故意入侵他人的计算机 - 特别是计算机黑客攻击。

因此,hiQ提出了一个严重的问题,即“未经授权”的访问是否将法定覆盖范围的范围限制在通常需要授权或访问权限(例如密码身份验证)的计算机。换句话说,CFAA考虑了三种计算机系统的存在:(1)访问向公众开放且不需要授权,(2) 需要并已给予授权的计算机,以及 (3) 需要授权但尚未给予授权的计算机(或者在禁止超过授权访问的情况下,未对所访问的系统部分给予授权)。公共LinkedIn个人资料(可供任何有互联网连接的人使用)属于第一类。关于在互联网上可自由访问的网站, “未经授权”的概念是不恰当的。

Van Buren的“闸门上升打开或关闭下降查”与我们对CFAA的解释一致,即考虑三类计算机系统。法院的“闸门向上开启或向下关闭调查”适用于我们确定的后两类计算机:如果需要并已给予授权,则闸门开启;如果需要授权但尚未授权,则闸门关闭。

然而,公共网站的一个决定性特征是,其公开可用的部分缺乏访问限制;相反,这些部分对使用Web浏览器的任何人开放。换句话说,将“闸门”类比应用于托管公开网页的计算机,该计算机首先没有竖起任何闸门来向上开启或向下关闭。 因此,Van Buren强化了我们的结论,即“未经授权”的概念不适用于公共网站。

因此,CFAA第1030条的立法历史和SCA第2701条的立法历史及其类似的“未经授权”条款,都支持地区法院区分“私人”计算机网络和网站,受密码认证系统保护并且“不对公众可见”,以及公众可以访问的网站。

最后,宽大处理规则有利于我们对CFAA中“未经授权”条款的狭隘解释。禁止未经授权的获取的法定禁令既适用于民事诉讼,也适用于刑事诉讼——事实上,“§ 1030主要是一项刑事法规。我们赞成对CFAA的“未经授权”条款进行狭隘的解释,以免将刑事黑客法规变成“全面的互联网警务授权”。

由于所有这些原因,当一个人规避计算机的一般适用规则(例如用户名和密码要求)来访问计算机时,似乎违反了CFAA禁止“未经授权”访问计算机的规定。当计算机网络通常允许公众访问其数据时,用户访问该公开可用数据可能不构成未经CFAA授权的访问。

D. 公共利益

虽然双方都有重大的公共利益,但总的来说,公共利益有利于hiQ的立场。让像LinkedIn这样的公司自由决定谁可以收集和使用数据——这些公司不拥有的数据,他们以其他方式公开提供给观众的数据,以及公司自己收集和使用的数据——可能会产生信息垄断,从而损害公共利益。

互联网公司和公众对挫败拒绝服务攻击和阻止滥用用户、身份窃贼和其他恶意行为者确实非常感兴趣。但我们并不认为地方法院的禁令为这种恶意活动打开了大门。地区法院明确表示,该禁令并不排除LinkedIn继续对不良行为者进行“技术自助”,例如,通过采取“反机器人措施来防止,例如,对其服务器的有害入侵或攻击”。虽然禁止公司保护其网站的公共部分免受恶意行为者的严重关切,但这里不存在这种担忧。

总之,第九巡回上诉法院确认地区法院的裁决,即hiQ已经确定了初步禁令和发回继续审理所需的要件。

案件启示

该案中,尽管LinkedIn在robots文件中限制hiQ Labs对公开数据的爬取,但是并不违反加州计算机欺诈和滥用法,并且LinkedIn的歧视性禁止hiQ Labs爬虫爬取公开数据的行为,也不属于正当的竞争行为,百度诉奇虎360案也有类似的结论。



       “

往期精彩


案例评析 | 信息网络传播权纠纷中的合法来源抗辩

案例评析 | 关于软件著作权侵权认定中的举证责任

案例评析 | 直播平台对于合约主播侵犯著作权的责任承担

案例评析 | 侵害开源软件著作权的赔偿额的确定

案例评析|视频的大小、长短并非判断是否构成作品的关键因素




长按识别杨宇宙律师个人微信二维码(yangyuzhou3342),了解更多



修改于
继续滑动看下一个
赢在IP
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存